今天我要介紹的是跟AI語音生成相關的TTS/STT 工具以及應用
順帶一提,TTS代表(Text-to-Speech),也就是把文字轉換成自然語音;而STT則是(Speech-to-Text),把語音轉換成文字。
AI的語音生成有哪些應用?
AI的語音生成在許多地方都可以用到,像是可以透過 TTS 閱讀文字來幫助視覺障礙者,或是STT 可快速轉寫會議、課程或訪談內容,拿來創作或娛樂都是不錯的選擇。
常見平台與工具
這邊介紹一些網路上比較常見的使用平台以及工具
1.OpenAI Whisper:高準確度的STT並且支援多語言,可以用在會議逐字稿、Podcast 轉文字上。
2.Microsoft Azure Speech:可以提供 TTS & STT,並支援多種語音風格。
3.ElevenLabs:提供TTS,聲音自然,也支援角色訓練。
如何試用
TTS:到 ElevenLabs註冊 https://elevenlabs.io/ ,輸入任何文字,並選擇喜歡的語音風格,就能聽到 AI 念出你的句子。
STT:用 Whisper Web Demo https://huggingface.co/spaces/openai/whisper 上傳音檔或錄音,就可以得到逐字稿。
程式範例
如果想要使用 OpenAI 的 Whisper API 進行 STT 的話,這邊有一個簡單例子
from openai import OpenAI
client = OpenAI(api_key="你的金鑰")
with open("homework.mp3", "rb") as audio_file:
transcript = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file
)
print("逐字稿:", transcript.text)
這樣就可以獲得homework.mp3的逐字稿了